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摘 要 : [目的 /意义 ] 提出 一 种 融合 评论 主题 识别 与 技术 属性 多 维度 分 析 的 技术 机 会 发 现 方法 ,从 技术 需求 驱动 视角 识 


别 技 术 机 会 ,为 企业 前 瞻 布 局 研发 方向 与 进行 科研 管理 规划 提供 决策 建议 支持 。[ 方法 “过程 」 以 产品 在 线 评 论 
为 研究 数据 源 ,首先 ,利用 LDA 主题 模型 识别 出 评论 技术 主题 ,提出 技术 评论 主题 强度 和 主题 新 颖 度 两 个 指标 ,得 
选 出 新 兴 重 点 技术 评论 主题 。 然 后 ,从 学 术 论文 .技术 专利 中 人 工 选取 技术 属性 词 ,通过 TF-IDF 值 计 算得 到 评论 
高 频 词 ,结合 专家 知识 进一步 筛选 出 技术 特征 词 ,构建 产品 技术 属性 词 -技术 特征 词 表 。 通 过 相关 性 计算 分 别 得 
到 与 评论 相关 和 与 新 兴 重 点 技术 评论 主题 相关 的 技术 属性 。 最 后 ,提出 一 种 产品 重要 技术 属性 识别 指标 模型 并 
设计 一 种 多 维度 分 析 方法 ,分 析 产 品 重 要 技术 属性 的 特征 情况 ,最 终 识 别 出 列 含 在 评论 文本 中 的 新 兴 技术 机 会 。 
[ 结果 /结论 ] 实验 结果 表明 该 方法 能 够 有 效 地 识别 技术 机 会 ,为 企业 产品 技术 研发 管理 提供 参考 。 
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污 目前 ,我 国企 业 正面 临 着 全 球技 术 革命 与 科技 竞 
使 浪潮 等 严峻 形势 。 推 进 前 上 脆性 的 技术 机 会 发 现 研究 
工程 ,有 助 于 企业 夺取 未 来 市 场 竞争 中 的 先 发 优势, 并 
提供 用 以 支撑 重要 科技 创新 决策 与 制定 核心 研发 战略 
的 二 要 情报 依据 。 为 此 ,研究 人 员 通 常 使 用 学 术 论文 
和 授 术 专利 ,从 技术 驱动 的 角度 识别 和 监测 新 兴 技 术 
的 发 展 趋势 , 却 很 少 利 用 与 新 兴 技 术 相关 的 社交 媒体 
数据 进行 技术 机 会 发 现 研究 5 1。 随 着 电子 商务 的 莲 过 
发 展 与 网 络 购物 的 推广 普及 , 电 商 平台 上 涌现 出 的 大 
量 方便 易 得 .内 容 丰富 的 在 线 产 品评 论 数 据 , 对 于 获取 
技术 需求 反馈 信息 具有 重要 的 研究 价值 。 

那么 ,如 何 有 效 地 利用 在 线 评论 ,从 中 发 现 技术 机 
会 ? 如 何 基于 技术 机 会 的 特征 ,对 前 脆性 技术 机 会 进 
行 分 析 、 识 别 与 筛选 ”为 此 ,本 研究 提出 一 种 融合 评论 


主题 识别 与 技术 属性 多 维度 分 析 的 前 瞻 技 术 机 会 发 现 
研究 方法 ,将 技术 机 会 发 现 研究 的 重心 前 移 到 技术 需 
求 端 ,通过 有 效 地 萃取 分 析 评 论 数据 中 的 技术 需求 信 
息 ,以 直接 .准确 地 发 现 前 瞻 性 技术 机 会 。 


2 相关 研究 进展 


技术 机 会 是 推进 技术 创新 活动 的 关键 影响 因素 与 
重要 决策 参考 ,识别 技术 机 会 的 能 力 是 国家 和 企业 的 
最 重要 的 研发 核心 竞争 力 之 一 ”。1995 年 ,美国 佐治 
亚 理 工学 院 教授 A，Porter 在 《技术 机 会 分 析 》( Tech- 
nology Opportunities Analysis ) 一 文中 正式 提出 “技术 机 
Z=” (technology opportunities ) 的 概念 , 指 通 过 对 某 领 域 
内 已 有 技术 在 竞争 主体 间 横 向 对 比 和 随时 间 纵 向 发 展 
趋势 及 相互 关系 的 挖掘 ,推断 该 领域 即将 可 能 出 现 的 
技术 形态 或 技术 发 展 点 ” ,开辟 了 技术 机 会 发 现 相关 
研究 领域 的 先河 。 李 保 明 从 技术 本 里 及 经 济 学 两 个 角 


* 本 文系 山东 省 高 等 学 校 青 创 科技 支持 计划 “科技 大 数据 驱动 的 智慧 决策 支持 创新 团队 -面向 新 旧 动 能 转换 的 新 兴 科 学 研究 前 沿 识别 研究 ” 


(项 目 编号 :2019RWG033 ) 研究 成 果 之 一 。 
作者 简介 : 吴 一 平 ( ORCID :0000 — 0001 — 9426 -7328 ) ,硕士 研究 生 ; 白 


如 江 (ORCID :0000 — 0003 — 3822 — 8484) ,研究 馆 员 ,硕士 生 导 师 , 通 讯 


作者 ,E-mail:brj@sdut. edu. cn; 刘 明月 (ORCID :0000 - 0002 -4335 - 9369 ) ,硕士 研究 生 ; 王 效 岳 (ORCID :0000 - 0002 -7100 -7758 ) 教授 , 博 


士 ,硕士 生 导 师 。 


收 稿 日 期 :2020 -11-30 修 回 日 期 :2021 -01-23 本 文 起 止 页 码 :56 -67 


本 文责 任 编辑 : 徐 健 


56 


A hi ri 
吴 一 平 , 白 如 江 , 刘 明 月 , 等 . 融合 评论 主题 识别 与 技术 属性 多 维度 分 析 的 技术 机 会 发 现 研究 [可 Ap 


(10:56: =67. 


ChinaXiv 合 作 期 于 
RAS ABH 


度 对 技术 机 会 进行 阐释 ,认为 技术 机 会 是 技术 进步 的 
机 会 ,是 企业 (或 社会 ) 提 供 的 新 技术 成 功 应 用 于 生产 
的 可 能 性 中 。 随 着 学 界 对 技术 机 会 发 现 研究 的 不 断 深 
入 ,其 研究 概念 .研究 数据 源 . 研 究 方法 也 在 不 断 丰 富 
发 展 。 
2.1 技术 机 会 的 概念 内 涵 在 情报 学 与 企业 管理 等 研 
究 领域 不 断 丰 富 

李 保 明 中 将 技术 机 会 划分 为 内 涵 的 技术 机 会 和 外 
延 的 技术 机 会 。 其 中 ,内 涵 的 技术 机 会 是 指 现存 技术 
的 规范 或 性 能 有 改进 的 可 能 性 ; 外延 的 技术 机 会 是 指 
一 个 特定 的 技术 有 转移 到 其 他 许多 技术 系统 的 可 能 
性 ,上 且 经 转移 后 在 很 多 功能 上 可 以 比 正在 应 用 中 的 技 
术 系 统 更 有 效 。 陈 震 红 等 中 认为 技术 机 会 是 技术 变化 
带 来 的 创业 机 会 。 康 宇航 "认为 技术 机 会 是 通过 对 蘑 
技术 领域 内 已 有 技术 发 展 趋势 及 相互 关系 的 挖掘 ,发 
现 最 新 技术 动向 ,推断 该 领域 可 能 出 现 的 技术 形态 或 
RAQ G. Cecere 等 ”认为 技术 机 会 是 企业 持 
续 便 新 过 程 中 的 核心 要 素 。 技 术 机 会 发 现 (Technology 
Opportunity Discovery, TOD ) 可 以 理解 为 一 种 在 技术 机 
EAMA 方法 和 技术 的 指导 下 ,主动 挖掘 含有 
找 林 机 会 信息 的 数据 源 ,发 现 潜在 的 技术 创新 发 展 契 


本 的 研究 活动 。 技 术 机 会 发 现 研究 有 助 于 把 握 最 新 技 


术 济 向 ,为 国家 宏观 科技 决策 制定 与 企业 技术 研发 创 


m 


新 管理 提供 情报 参考 。 
>< 技术 机 会 发 现 研究 所 采用 的 数据 源 主要 是 论文 
SF 
=A. Porter 提出 技术 机 会 发 现 与 当前 存在 的 技术 密 
切 三 关 并 具有 复杂 的 互动 机 制 " 。F，Malerba 等 中 提 
出 ,专利 数据 .科技 期 刊 .科技 报告 等 反映 最 新 的 技术 
信息 和 动态 的 科技 资源 ,为 挖 据 潜 在 的 技术 创新 机 会 
提供 了 可 能 ,为 技术 机 会 发 现 研 究 提供 了 研究 数据 源 
参考 。 李 欣 、 黄 鲁 成 等 "指出 ,研究 人 员 通 常 使 用 学 术 
论文 和 专利 数据 从 技术 角度 识别 和 监视 新 兴 技 术 的 趋 
势 。 科 学 论文 是 基础 科学 重要 载体 ,技术 专利 是 技术 
信息 的 重要 载体 。 因 此 ,目前 技术 机 会 发 现 研 究 数据 
源 仍 以 科学 论文 与 技术 专利 等 数据 源 为 主 。 
2.3 ”技术 机 会 发 现 的 研究 方法 随 着 时 代 发 展 不 断 丰 
富 创新 

传统 的 技术 机 会 发 现 研 究 主要 依靠 基于 专家 知 
识 ,该 方法 在 局 部 范围 内 或 者 细 分 技术 领域 能 够 保证 
较 高 的 效率 与 准确 性 。 大 数据 时 代 机 器 学 习 技术 的 莲 
勃发 展 , 为 技术 机 会 发 现 研究 提供 了 充足 的 技术 方法 
支撑 ,并 且 随 着 市 场 环境 的 激烈 变化 与 技术 创新 周期 


的 日 趋 缩短 ,技术 机 会 发 现 研 究 方法 也 在 实证 研究 中 
不 断 深入 与 丰富 ,包括 但 不 限于 综合 应 用 基于 专家 知 
识 的 技术 机 会 发 现 方法 "" 、 基 于 文献 计量 的 技术 机 会 
RETEST 、 基 于 文本 挖掘 的 技术 机 会 发 现 方 
法 “基于 社会 网 络 分 析 的 技术 机 会 发 现 方法 
等 中。 例如 ,M. Y. Wang 等 "提出 ,科学 与 技术 
知识 之 间 存 在 的 差异 具有 挖掘 潜在 技术 机 会 的 可 能 ， 
因此 通过 专利 文本 挖掘 方法 结合 聚 类 算法 ,研究 分 析 
科学 与 技术 知识 之 间 的 差距 以 发 现 潜在 技术 机 会 ,并 
在 微 藻 生 物 燃料 领域 进行 实证 研究 。 李 欣 、 黄 鲁 成 
等 "| 运用 文献 计量 方法 统计 分 析 了 染料 敏 化 太阳 能 
光伏 技术 产业 的 技术 热点 、 技 术 前 沿 、 技 术 机 会 .技术 
发 展 趋势 等 ,构建 了 基于 文献 计量 、 专 利 分 析 和 技术 路 
线 图 研究 方法 的 新 兴 技 术 产 业 未 来 发 展 分 析 框 架 , 以 
客观 数据 统计 结果 发 现 新 兴 技 术 机 会 。 王 京 安 ' 沁 通 
过 对 比分 析 物 联网 技术 研究 领域 的 科技 论文 与 专利 文 
献 生成 的 关键 词 聚 类 网 络 图 作者 聚 类 网 络 图 .机构 聚 
类 网 络 图 以 及 关键 词 聚 类 时 间 线 网 络 图 等 ,判断 技术 
研究 热点 发 现 技 术 机 会 ,揭示 了 物 联 网 行业 领域 未 来 
发 展 趋 势 。 
虽然 目前 的 技术 机 会 发 现 研 究 已 经 取得 了 丰富 的 
研究 成 果 , 但 仍 存在 一 些 问 题 。 在 研究 数据 源 上 ,一 方 
面 , 目 前 主要 选用 论文 .专利 等 记录 已 有 技术 的 信息 载 
体 进 行 技术 机 会 发 现 研 究 。 所 得 研究 结果 往往 具有 一 
定时 沾 性 ,可 能 落后 于 技术 领域 的 最 新 趋势 ,难以 满足 
获得 最 具 前 脆性 的 技术 机 会 发 现 结果 的 研究 需求 。 产 
品评 论 数 据 方便 易 得 、 实 时 更 新 ,并 且 直 接客 观 地 反映 
了 用 户 对 产品 技术 的 需求 与 感知 ,是 对 人 研究 技术 机 会 
发 现 具有 重要 价值 的 科技 数据 。 挖 气 用 户 产 品评 论 中 
的 技术 需求 反馈 能 够 更 加 直接 、 更 为 前 脆 地 发 现 未 来 
技术 机 会 。 然 而 ,目前 的 研究 没有 对 产品 在 线 评论 引 
起 足够 重视 ,进而 导致 目前 技术 机 会 发 现 研 究 结果 与 
用 户 直 接 技术 需求 结合 方面 存在 一 定局 限 性 ,从 用 户 
技术 需求 驱动 视角 的 技术 机 会 发 现 研究 机 理 机 制 有 待 
在 研究 方法 上 ,基于 专家 知识 ,文献 计量 、 文 本 挖 
据 \ 社 会 网 络 分 析 等 技术 机 会 发 现 方 法 体系 已 经 较为 
丰富 完善 ,但 是 现 有 的 实现 技术 与 研究 方法 在 基于 产 
品 在 线 评论 数据 的 技术 机 会 发 现 研 究 的 识别 效率 、 挖 
掘 结果 方面 的 精确 性 以 及 算法 的 适用 性 等 方面 , 仍 待 
进行 充分 的 实证 研究 。 目 前 的 技术 机 会 发 现 研究 过 程 
仍 未 充分 结合 时 序 .品牌 型 号 等 因素 深入 分 析 , 因而 研 
究 结 果 往 往 没 能 全 面 地 反映 技术 机 会 的 时 间 敏 感性 与 
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De 此 外 ,目前 基于 产品 评 
论 驱 动 的 技术 机 会 发 现 的 相关 研究 的 理论 方法 模型 、 
技术 实现 路 径 以 及 实证 研究 成 果 整 体 比 较 有 限 , 技 术 
机 会 发 现 识别 方法 比较 粗略 笼统 ,有 待 基于 更 为 科学 
s 与 技术 手段 ,将 量化 分 析 与 内 容 分 析 
目 结 合 ,从 用 户 技术 需求 驱动 视角 深入 技术 机 会 发 现 
i 
因此 ,本 研究 提出 一 种 融合 评论 主题 识别 与 技术 
属性 多 维度 分 析 的 前 瞻 技 术 机 会 发 现 研究 方法 ,以 产 
品 在 线 评论 数据 为 研究 数据 源 ,通过 新 兴 重 点 技术 评 
论 主题 识别 分 析 、 产 品 重要 技术 属性 识别 分 析 以 及 技 
术 属 性 多 维度 分 析 , 发 现 产 品评 论 中 的 前 脆性 技术 机 
会 ,为 技术 机 会 发 现 与 科研 创新 管理 提供 理论 参考 与 
模型 支撑 。 
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3 研究 思路 


本 研究 基于 电 商 平台 智能 手机 产品 在 线 评论 ,学 

术 论 文 .科技 报告 .专家 知识 等 数据 源 ,通过 研究 分 析 
评论 数据 中 的 用 户 技术 需求 反馈 ,驱动 前 瞻 性 技术 机 
会 发 现 。 基 于 这 样 的 研究 前 提 , 本 研究 的 研究 思路 如 
图 1 所 示 。 主 要 包括 5 部 分 内 容 , 第 一 部 分 利用 主题 
模型 识别 出 评论 文本 中 的 新 兴 重 点 技术 主题 ,第 二 部 
分 构建 了 技术 属性 词 和 技术 特征 词 表 ,第 三 部 分 在 前 
面 两 部 分 研究 基础 上 识别 出 与 新 兴 重 点 技术 主题 相关 
的 技术 属性 ,第 四 部 分 识别 出 重点 技术 主题 下 具体 产 
品 的 相关 技术 属性 ,第 五 部 分 提出 一 种 产品 重要 技术 
属性 多 维度 分 析 模 型 ,最 终 识别 出 部 含 在 评论 文本 中 
的 技术 机 会 


分 析 : 
=> 新 兴 重 点 技术 主题 : 
相关 我 术 属性 : 


产品 重 本 [当前 重要 技术 属性 


技术 属性 | 潜在 重要 技术 属性 


1 研究 思路 示意 


3.1 新 兴 重 点 技术 评论 主题 识别 
3.1.1 基于 PLDA 主题 模型 的 技术 评论 主题 识别 

本 文 基于 并 行 潜在 犹 利克 雷 分 布 模型 (Parallel 
Latent Dirichlet Allocation, PLDA ) 设 计 了 产品 在 线 评 论 
主题 识别 方法 ,对 评论 数据 进行 时 间 分 割 与 主题 识别 ， 
旨 在 通过 识别 出 各 时 期 的 评论 主题 及 主题 词 ,研究 各 


时 期 评论 数据 中 的 技术 内 容 。PLDA 主题 模型 利用 吉 
布 斯 采样 ( Gibbs sampling) 进行 参数 求解 ,提高 了 算法 
的 运行 效率 和 并 行 的 加 速 比 ,能 够 高 效 准确 地 识别 评 
论文 本 中 的 主题 及 其 主题 词 ” 。 
3.1.2 ”新兴 重点 技术 评论 主题 识别 

综合 考虑 要 寻找 的 技术 机 会 具有 一 定时 效 性 与 用 
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(10):56=67, 


户 需求 性 特征 ,本 文 设计 了 包含 技术 评论 主题 强度 E 
题 新 医 度 两 项 指标 的 新 兴 重 点 技术 评论 主题 识别 模 
型 。 通 过 该 指标 模型 计算 ,精确 地 识别 出 主题 强度 较 
大 .新 绪 度 较 高 的 新 兴 重 点 技术 评论 主题 。 

(1) 技 术 评 论 主题 强度 指标 。 该 指标 能 够 直观 反 
映 主题 的 受 关注 度 与 参与 度 。 定 义 该 指标 为 每 个 主题 
内 部 的 评论 数量 占 该 时 期 评论 总 量 的 权重 ,计算 公式 
为 : 


公式 (1) 

其 中 ,TI 代表 某 时 期 的 技术 评论 主题 强度 (topic 
intensity ) ; 

X 代表 某 时 期 识别 出 的 某 技 术 评 论 主题 下 的 评 
二)-,Xi 代表 该 时 期 所 有 技术 评论 主题 下 评论 数 
= 和 |。 

为 了 确定 评论 所 属 主题 ,确定 主题 下 评论 的 数量 ， 
本 秘 究 利用 计算 余弦 相似 度 的 方法 ,得 到 评论 与 主题 
AEE. 

之 第 一 步 ,构建 向 量 空间 模型 ( Vector Space Model, 
) ,把 主题 与 评论 用 向 量 的 方式 进行 描述 ,向 量 空 
型 中 用 Comment 表示 评论 Topic 表示 主题 表 
论 信息 词 或 主题 词 w 表示 主题 词 或 属性 特征 词 
,主题 向 量 可 用 主题 词 表示 为 Topic; = |L, ,LDL , 
汇 ,| ,评论 向 量 可 用 评论 信息 词 表示 为 Comment 
= 生 , ,了 ,L,……L,| 、 主 题词 的 权重 向 量 为 Topic 


TI = 


Vector = | W, ,W, ,W,,……W, | ,评论 信息 词 的 权重 向 
z9 Comment Vector = | Wi, W,, WJ, adia 每 个 主 


题词 或 技术 特征 词 都 有 一 个 权重 。 
第 二 步 ,计算 评论 与 主题 之 间 的 相似 度 ,计算 结 
介 于 [0,1] 之 间 。 参 考 余 弦 相 似 度 计算 方法 2 ,设计 
了 评论 与 主题 相似 度 计算 公式 为 : 
Sim( Topic; ,Commenti ) = cos0 = 
XY. w, (Topic, ) x w, (Comment ) 
VC w (Topic, )) x ( Xi. w, (Comment; )) 
HHE, IF È iaw (Topic, ) x w, (Comment, ) 表示 
评论 主题 向 量 与 评论 信息 词 向 量 的 点 乘积 ; 


公式 (2) 


分 母 A © iaw, (Topic;)) x(> iw, (Comment, )) 
表示 评论 主题 向 量 与 评论 信息 词 向 量 模 的 乘积 ; 


主题 下 的 某 评论 相似 度 , BB o , 若 相 似 度 大 于 o: WI) 
评论 属于 该 主题 ,否则 不 属于 该 主题 。 表 示 为 A = {TC 
_SimITC_ Sim >o o e [0,1]) 

设置 技术 评论 主题 强度 S WREN B, AE 
强度 大 于 B, 则 说 明 该 主题 强度 较 高 。 

主题 强度 越 高 ,表明 用 户 对 该 主题 的 关注 度 与 参 
与 度 高 , 则 该 主题 可 能 是 新 兴 重 点 技术 评论 主题 。 

(2) 技 术 评论 主题 新 颖 度 指 标 。 该 指标 能 够 揭示 
技术 评论 主题 随时 间 变 化 的 发 展 趋势 是 新 生 、 发 展 还 
是 消亡 。 定 义 该 指标 计算 公式 为 : 


date, 


TN = 


t4 


公式 (3 ) 


其 中 ,TN 代表 技术 评论 主题 新 颖 度 (topic novel- 


i=ltotal_num 


ty); 
total num 为 该 技术 评论 主题 下 的 评论 数量 之 和 ; 
Date, 为 该 技术 评论 主题 下 每 篇 评论 发 表 日 期 ; 


二 date, 、 EEN >: 
2: i=ltotal nmi i 结果 为 该 主题 下 全 部 评论 的 平 


均 发 表 日 期 , 即 技术 评论 主题 新 颖 度 。 计 算得 到 的 数 
值 越 大 则 主题 新 颖 度 越 强 ,表明 该 评论 主题 的 内 容 发 
表 的 时 间 越 新 。 

设 定 主题 新 颖 度 N 的 闽 值 为 y ,者 主题 新 颖 度 大 
于 y, 则 表明 布局 年 份 新 ,该 主题 可 能 是 新 兴 重 点 技术 
评论 主题 。 

RERA B 为 新 兴 重 点 技术 评论 主题 集合 , 设 定 
技术 主题 强度 S ey B B, EENDEN 高 于 阐 值 y 
的 主题 为 新 兴 重 点 技术 评论 主题 ,属于 集合 B ,表示 为 
B=|S,NIS>B,N>Yy,BeR,yeR|。 

3.2 产品 技术 属性 词 -技术 特征 词 表 构建 与 评论 相 
关 技术 属性 识别 
3.2.1 产品 技术 属性 词 -技术 特征 词 表 构 建 

为 了 后 续 识 别 出 新 兴 重 点 主题 包含 哪些 技术 属 

性 ,本 文 提出 产品 技术 属性 词 - 技术 特征 词 表 构建 方 


第 一 步 :对 产品 在 线 评 论 数 据 进行 文本 预 处 理 与 
TF-IDF 计算 ,识别 评论 内 容 高 频 词 ,并 结合 专家 知识 ， 
进一步 筛选 出 技术 特征 词 。 

第 二 步 :通过 整合 学 术 论 文 .专利 信息 与 专家 报 
告 ,筛选 较为 权威 的 技术 属性 词 。 

第 三 步 :根据 第 二 步 筛选 出 的 权威 技术 属性 词 ， 


Sim( Topic, , Comment; ) 是 评论 主题 向 量 与 评论 信 
息 词 向 量 之 间 的 相似 度 ; 


与 第 一 步 筛选 出 的 技术 特征 词 进 行 属性 -技术 词 匹 
配 。 例 如 :对 技术 属性 词 “声音 ”进行 技术 特征 词 匹 


设 定 集合 A 为 某 主 题 下 的 评论 集合 ,TC_Sim 为 该 


配 ,优先 从 TF-IDF 高 频 词 中 往 选 含有 “ 声 ”“ 响 ” 
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“ 音 ”“ 噪 "“ 铃 ”等 能 够 表征 “声音 ”的 词语 ,并 从 中 进 
一 步 筛选 合适 的 技术 特征 词 ,将 其 分 类 到 “声音 ” 技 
术 属 性 下 。 构 建 完成 后 通过 专家 进一步 分 析 判 读 ， 
最 终 形成 产品 技术 属性 词 - 技术 特征 词 表 ,如 表 1 所 
ZN: 


R1 产品 技术 属性 词 -技术 特征 词 表 ( 部 分 ) 
技术 属性 序号 技术 属性 词 技术 特征 词 


TECH_1 声音 音质 . 响 音量 声音 洪亮 ,声音 .通话 音质 、 音 


响 、 外 放 \ 听 歌 . 震 耳 欲 毒 . 听 简 音色 、 柔 音 .无 


TECH_2 游戏 手机 游戏 , 打 游 戏 , 小 游戏 \ 玩 游戏 ,游戏 ,可 玩 
性 \ 王 者 \ 团 战 . 泡 泡 龙 、 网 络 游戏 、 火 线 …… 


3.2.2 评论 相关 技术 属性 识别 
T» 了 确定 评论 所 属 技术 属性 ,确定 技术 属性 下 评 
论 的 数量 ,本 研究 利用 计算 评论 与 产品 技术 属性 词 一 


Wanay 


技 赤 特征 词 表 之 间 余 弦 相 似 度 的 方法 ,参见 公式 (2) ， 


得 到 产品 评论 与 评论 属性 之 间 的 相关 性 。 设 定 集合 C 
涯 咀 属性 下 的 评论 集合 ,AC_Sim 为 属性 与 评论 的 相似 
广 s 岗 值 为 8, 若 相似 度 大 于 8 则 评论 属于 该 技术 属 
性 :守则 不 属于 某 项 技术 属性 。 表 示 为 C= | AC_Sim| 
AC.Sim>8,8=[0,1]] 
3O 新 兴 重点 技术 评论 主题 相关 技术 属性 分 析 
为 了 确定 新 兴 重 点 技术 评论 主题 所 属 技术 属性 ， 
明确 技术 机 会 发 现 范围 。 本 研究 设计 了 基于 余弦 相似 
雇 手 主题 与 技术 属性 相关 性 计算 方法 ,识别 评论 主题 
的 出 关 技术 属性 ,参见 公式 (2) 。 设 定 集合 D 为 某 属 
性 未 的 主题 集合 , AT_Sim 为 属性 与 主题 的 相似 度 , 阅 
值 汐 =, 若 相似 度 大 于 e 则 主题 属于 该 技术 属性 ,否则 
不 属于 某 项 技术 属性 。 表 示 为 D = | AT_Sim1AT_Sim 
>s,selL0;,1]|。 
3.4 ”产品 重要 技术 属性 识别 

为 了 提高 产品 重要 技术 属性 识别 结果 的 精确 度 ， 
本 文 设计 了 一 种 基于 余弦 相似 度 的 评论 与 属性 相似 度 
计算 方法 ,并 构建 了 一 种 包含 技术 属性 强度 ,技术 属性 
新 颖 度 两 项 指标 的 产品 重要 技术 属性 特征 识别 指标 模 


3.4.1 评论 技术 属性 强度 指标 

该 指标 直观 反映 技术 属性 的 受用 户 关注 度 与 评论 
参与 度 情况 。 定 义 每 个 属性 内 部 的 评论 数量 占 该 时 其 
评论 总 量 的 权重 ,评论 属性 强度 计算 公式 为 : 


C. 


Al=— 公式 (4) 
> Gi 


其 中 ,AI 代表 某 时 期 的 评论 技术 属性 强度 (attrib- 
ute intensity ) ; 
C 代表 某 时 期 识别 出 的 某 评 论 技术 属性 下 的 评论 
数量 ; 
>. C 代表 该 时 期 所 有 评论 技术 属性 下 评论 数 
量 之 和 。 
属性 强度 越 高 ,表明 用 户 对 该 属性 的 关注 度 与 评 
论 参与 度 高 ,该 属性 可 能 是 产品 重要 技术 属性 。 
设 定 评 论 技 术 属 性 强度 的 国 值 为 Q, 知 某 属 性 强 
度 大 于 Q, 则 说 明 该 属性 强度 较 高 ,可 能 是 包含 技术 机 
会 产品 的 重要 技术 属性 。 
3.4.2 评论 技术 属性 新 颖 度 指标 
该 指标 能 够 反映 技术 属性 的 评论 年 份 布局 情况 ， 
揭示 该 技术 属性 受 关注 的 时 期 特征 。 设 计 评 论 技术 
性 新 颖 度 计算 公式 为 : 


wl 


date, 


ANS 2 il ARCS) 
total_num 
其 中 ,AN 代表 评论 技术 属性 新 新 度 (attribute nov- 


elty) š 
total_num 为 该 评论 技术 属性 下 的 评论 数量 之 和 ; 
date, 为 该 技术 评论 评论 属性 下 每 篇 评论 发 表 日 
期 ; 


Zi 计算 结果 为 该 属性 全 部 评论 的 平均 
total _num 


发 表 日 期 , 即 评论 技术 属性 新 前 度 。 
属性 新 前 度 越 强 , 则 表明 该 评论 属性 的 内 容 发 表 
的 时 间 越 新 。 

设 定 属性 新 牢 度 的 冰 值 为 X, 知 属性 新 颖 度 大 于 
X, 则 表明 该 属性 布局 年 份 新 ,可 能 是 包含 技术 机 会 的 


date, 


型 。 使 用 构建 的 产品 重要 技术 属性 特征 识别 指标 对 
技术 属性 进行 评 佑 ,并 通过 确认 该 技术 属性 中 包含 
新 兴 重 点 技术 评论 主题 ,识别 产品 重要 技术 属性 ( 包 
含 当前 重要 技术 属性 与 潜在 重要 技术 属性 )。 对 识 
别 出 的 产品 重要 技术 属性 进行 技术 属性 内 涵 分 析 、 
属性 强度 分 析 、 属 性 新 突 度 分 析 , 从 而 研究 产品 重要 
技术 属性 的 技术 领域 内 容 . 属 性 受 关注 程度 以 及 属 
性 时 期 发 展 情况 。 


产品 重要 技术 属性 。 

设 定 集合 上 为 产品 当前 重要 技术 属性 
评论 技术 属性 强度 Q e F WE i, JR EIA E X 高 
HE 的 且 包 含 新 兴 重 点 技术 评论 主题 的 技术 属性 为 
产品 当前 重要 技术 属性 ,属于 集合 上 ,表示 为 E= |Q， 
X,AT Sim IQ >L,X>n,AT Sim>e,teR,neR,ee 
[0,1]|。 

WERA F 为 潜在 重要 技术 评论 主题 集合 , 设 定 评 


被 
r 
xi 
+ ë 
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(10:56: =67; 
论 技 术 属 性 强度 Q IRF RE ç, REIA X a T E =5&page = 0&pageSize = 50&isShadowSku = 0&fold = 1。 


的 且 包含 新 兴 重点 技术 评论 主题 的 技术 属性 为 潜在 
重要 技术 属性 ,属于 集合 ,表示 为 F= 1Q,X,AT_Sim | 
Q<i,X>n,AT Sim>s,5sRimeR,ss[0,1]|。 
设 定 集合 G 为 产品 重要 技术 属性 集合 ,CG = EUF, 
ECG,FCG, 
3.5 ”产品 重要 技术 属性 多 维度 分 析 与 技术 机 会 发 现 
为 了 提高 技术 机 会 发 现 结果 的 全 面 性 与 精确 性 ， 
本 研究 设计 了 产品 重要 技术 属性 多 维度 分 析 与 技术 
机 会 发 现 方法 ,对 识别 出 的 产品 重要 技术 属性 进行 
技术 属性 下 的 主题 数量 时 期 分 布 规律 分 析 、 技 术 属 
性 下 的 主题 内 容 时 期 演化 规律 分 析 、 技 术 属性 下 的 
评论 数量 时 期 分 布 规律 分 析 以 及 技术 属性 下 的 评论 
型 学 时 期 分 布 规律 分 析 , 最 终结 合 网 络 调研 .学 术 论 
X 科 技 报告 .专家 知识 等 综合 调研 分 析 结果 ,发现 
RIA. 
— EE AUS E F n ERDAM A RA, STE 
揭 全 用 户 在 不 同时 期 对 于 该 技术 属性 的 反馈 与 关注 广 
度 等 情况 。 
技术 属性 下 的 主题 内 容 时 期 演化 规律 分 析 , 旨 在 
户 对 该 技术 属性 反馈 内 容 的 时 间 变 化 。 
A 为 了 计算 属性 下 评论 主题 之 间 的 相似 度 ,参见 公 
2) ,计算 结果 介 于 [0,1] 之 间 。 
.一 设 定 主题 之 间 相似 度 为 TT_Sim , 阔 值 为 6, 若 相似 
于 0 则 两 个 主题 互 为 相似 评论 主题 ,否则 互 为 不 
论 主题 。 集 合 F 为 相似 评论 主题 集合 ,表示 为 F 


3 


-@TT_SimITT_Sim >0,0e [0.1]! 

名 技术 属性 下 的 评论 数量 时 期 分 布 规律 分 析 , 旨 在 
揭示 用 户 对 该 技术 属性 的 评论 参与 度 与 用 户 关注 度 的 
时 期 分 布 变化 规律 

技术 属性 下 的 评论 型 号 时 期 分 布 规律 分 析 , 旨 在 
揭示 不 同时 期 用 户 对 不 同型 号 品牌 的 产品 的 技术 反馈 
和 诉求 分 布 规律 。 


4 基于 产品 评论 数据 驱动 的 技术 机 会 发 
现实 证 研究 


本 文 以 京东 电 商 平台 产品 评论 数量 排名 前 14 位 
的 智能 手机 评论 数据 为 数据 源 , 数 据 源 采 用 京东 平台 
提供 的 json 格式 数据 ,以 Apple iPhone 11 为 例 ,其 URL 
为 : https://club. jd. com/comment/ productPageCom- 
ments. callback = fetchJSON _ com- 
ment98 &productId = 100008348542 &score = 0&sortType 


° 


action? 


使 用 Python F4 EJIE h FE Jy 2& $Ë 328 pas , JÉ rE Hf [3] : 2020 
年 4 月 14 日, 共 得 到 13 870 条 评论 数据 ,通过 评论 有 
用 性 筛选 与 去 除 重 复 项 后 共有 12 889 条 评论 数据 。 
具体 抓 取 产 品 .评论 数量 和 评论 时 间 分 布 情 况 如 表 2 


Ses 


所 示 : 
表 2 京东 电 商 平台 产品 评论 数量 排名 前 14 位 的 
智能 手机 评论 数据 
序号 品牌 拒 取 评论 数量 (条 ) 
1 Apple iPhone 11 990(2019 :378 ,2020 :612 ) 
2 Apple iPhone 8 Plus 22(2017:3 ,2019 :5 ,2020 .14) 
3 Apple iPhone XR 990 (2018 :116 ,2019 :593 ,2020 :281 ) 
4 Redmi 8A 990(2019 :192 ,2020 :798 ) 
5 redmi note 8 pro 990(2018 :370 ,2019 :620 ) 
6 vivo Z5x 990 (2019 :656 ,2020 :334 ) 
7 华为 nova5 Pro 990(2019 :578 ,2020 :412 ) 
8 华为 P30 990(2019 :545 ,2020 :445 ) 
a 华为 P30Pro 990(2019 :647 ,2020 :343 ) 
10 荣耀 20s 990(2019 :251 ,2020 :739 ) 
11 荣耀 9x 990(2019 :477 ,2020 :513 ) 
12 荣耀 v20 990(2018 :2 ,2019 :776 ,2020:212 ) 
13 荣耀 畅 玩 7 987(2018 :464 ,2019 :295 ,2020 :228 ) 
14 小 米 note8 990(2019 :359 ,2020 :631 ) 


该 实验 环境 是 选用 Python .百度 Aistudio ,数据 控 
掘 软件 KNIME „Excel 等 平台 和 软件 进行 数据 处 理 与 分 
析 。 

4.1 PLDA 主题 识别 与 新 兴 重 点 技术 评论 主题 识别 
研究 

对 评论 数据 进行 时 间 分 割 ,结合 各 时 期 具体 评论 
数量 , 共 将 数据 集 划 分 5 个 时 间 序 列 组 ,分 别 对 每 组 评 
论 数 据 进行 PLDA 主题 识别 ,共识 别 出 50 个 评论 主 
题 ,每 个 主题 下 15 个 关键 词 ,主题 关键 词 由 PLDA + 
题 模 型 根据 关键 词 在 主题 中 出 现 的 概率 大 小 自动 生 
成 。 

为 方便 数据 统计 和 分 析 , 并 结合 各 时 期 具体 评论 
收集 情况 ,本 研究 对 主题 进行 统一 命名 ,2017 -2018 年 
为 时 期 [ ,2019 年 1 月 -2019 年 4 月 为 时 期 荆 ,2019 
年 5 月 -2019 年 8 月 为 时 期 亚 ,2019 年 9 月 -2019 年 
12 月 为 时 期 W ,2020 年 1 月 至 4 月 为 时 期 V。 将 部 分 
主题 及 主题 词 识别 结果 以 矩阵 形式 表示 ,部 分 结果 见 
表 3。 

本 文通 过 所 设计 的 包含 主题 强度 .主题 新 颖 度 两 
项 指标 的 新 兴 重 点 技术 评论 主题 特征 识别 指标 模型 计 
算 , 识别 新 兴 重 点 技术 评论 主题 。 设 定 主 题 强度 闵 值 
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表 3 主题 - 主题 词 矩 阵 ( 部 分 ) 


主题 编号 主题 内 容 


表 5 产品 技术 属性 词 — 技术 特征 词 表 ( 部 分 ) 
技术 属性 序号 技术 属性 词 技术 特征 词 


] _topic_0 屏幕 信号 效果 没 很 大 8p 不 电池 网 上 使 用 一 天 边框 
I_topic 1 屏幕 屏 采 用 畅 玩 7 拍 智 能 全 面体 验 电 池 像素 震撼 
I_topic 2 智能 屏 全 面 7 功能 畅 玩 K 通话 环境 摄像 头 RE 听 简 
I_topic 3 显示 现在 比较 买 去 不 效果 使 用 手 小 时 加 上 来 说 
I_topic 4 K 屏幕 速度 拍照 不 效果 ER 很 多 11 双 很 快 运行 
I_topic 5 买好 评 华为 速度 老人 性 价 比 很 快 手感 快递 价格 运行 
LI_topic 6 K A X 解锁 xr 扬声器 面容 屏 屏幕 全 面 苹果 很 大 续航 
I_topic 7 不 买 不 用 微 信 数 据 软 件 屏幕 xs 点 续航 价位 流量 
I_topic 8 速度 很 快 屏幕 拍照 包装 使 用 整体 物流 一 次 购物 很 多 
LI_topic 9 外 观 买 老人 物流 屏 收 到 全 面 手感 屏幕 购买 性 价 比 
I_topic 0 买 屏 幕 屏 很 快 问 题 速度 拍照 没 ER 不 是 Z< Mj xr 
IT_topic 1 3 不 屏幕 使 用 电量 拓展 坚果 运行 K 功能 快 充 V20 
IT_topic 2 ”华为 买 屏幕 苹果 体验 拍照 不 使 用 外 观 没 深交 细节 
Mpi 屏幕 速度 拍照 华为 运行 效果 识别 电池 续航 不 模式 
ies 机 器 拍照 屏幕 效果 到 手 没 吃 不 鸡 买 电池 华为 抢购 
ic 5 ” 买 苹果 使 用 再 不 很 快 物流 值得 速度 屏幕 问题 性 价 比 


EF 


7 


新 颖 度 高 于 阔 值 的 主题 即 为 新 兴 重 点 技术 评论 主题 ， 
IGRA 19 个 新 兴 重点 技术 评论 主题 ,部 分 结果 见 表 
4 全 新兴 重点 技术 评论 主题 中 ,除了 包含 对 技术 属性 与 
光电 特征 的 描述 ,还 体现 了 对 老人 .长 辈 等 用 户 群 体 的 


THI 


使 用 感 以 及 对 产品 性 价 比 的 关注 。 
.之 。 表 4 新 兴 重 点 技术 评论 主题 (部 分 ) 


主题 词 (部 分 ) 


主题 。 主题 强度 主题 新 颖 度 


M gtopic_3 0.31 
== 


2019.79 “拍照 .速度 .屏幕 .和 运行. 外观、 待机 让 
间 音效 外形、 特色 .电池 手感 …… 
2019.46 “效果 .拍照 .速度 .运行 .屏幕 .外 观 、 待 
机 时 间 .音效 外形、 特色 .手感 …… 
老人 .性价比 妈妈、 使 用 内存、 屏幕 、 
适合 、 红 米 、 价 格 、 华 为 .…… 


2020. 26 


V _topic_8 0.15 


4.2 产品 技术 属性 词 -技术 特征 词 表 构 建 研究 
通过 TF-IDF 计算 从 全 部 评论 中 提取 出 高 频 词 , 结 
合 专家 判读 ,从 高 频 词 中 筛选 出 能 够 表征 产品 技术 特 
征 的 词语 ,形成 产品 技术 特征 词 表 ,基于 专家 知识 ,从 
论文 专利 .报告 等 数据 来 源 中 抽象 出 技术 属性 词 , 共 
筛选 出 13 种 技术 属性 ,并 通过 专家 知识 ,匹配 技术 属 
性 词 与 技术 特征 词 ,构建 产品 技术 属性 词 -技术 特征 
词 表 ,部 分 结果 见 表 5。 
4.3 ”新 兴 重 点 技术 评论 主题 相关 技术 属性 分 析 研 究 
通过 计算 新 兴 重 点 技术 评论 主题 与 产品 技术 属性 
词 - 技术 特征 词 表 之 间 的 相似 度 ,分 析 新 兴 重 点 技术 
评论 主题 相关 技术 属性 。 设 定 评 论 主 题 与 技术 属性 的 


TECH 6 摄像 功能 。 拍照 .自拍 镜 \ 拍 照片 图像. 晒 图 、 拍 不 出 、 调 
焦 照 相 摄像 机 、 变 焦 镜 头 、 摄 影 、 摄 像 、 
夜 拍 、 变 焦 \ 反 光 、 光 圈 …… 
存储 空间 、 存 储量 、 显 热 \, 储 量 、 内 存 、 存 储 、 内 
存 卡 、 内 存 容量 、 运 存 够 内存 不 足 …… 

TECH_8 电池 费 电 .电池 容量 .电池 电量 ,电容 量 、 蓄 电 上 
电 续航 力 \ 余 电 、 快 充 续航 、 耗 电量 H 


TECH_7 存储 


相似 度 阔 值 为 1% ,采用 Echarts 可 视 化 平台 ,将 部 分 新 
兴 重 点 技术 评论 主题 与 技术 属性 的 相关 情况 以 热力 
的 形式 呈现 。 如 图 2 所 示 ( 为 保证 图 示 效 果 , 按 相似 度 
FEDA 100 进行 绘制 ) , 横 轴 为 识别 出 的 新 兴 重 点 技术 评 
论 主题 , 纵 轴 是 本 文 构建 的 技术 属性 ,着 色 方块 代表 主 
体 与 属性 之 间 的 相关 性 ,颜色 越 深 代表 主题 与 属性 相 
关 性 越 强 。 同 一 主题 可 能 与 多 种 技术 属性 相关 ,其 中 
近期 与 新 兴 重 点 技术 评论 主题 相似 度 较 高 的 技术 属性 
主要 有 TECH_8( 电 池 ) ,TECH_3( 触 控 ANFC/ 智 能 遂 控 
技术 ) TECH_7( 存 储 ) .TECH_10( 附件) 等 ,反映 近期 
用 户 对 这 些 技术 属性 关注 度 较 高 ,在 新 兴 重 点 技术 评 
论 主题 中 分 布 较 广 的 技术 属性 主要 有 TECH_1( 声 
音 ) TECH_8( 电 池 ) TECH_12( 外 观 设计 ) 等 ,反映 近 
期 用 户 对 这 些 技术 属性 关注 度 较 广 ,可 能 存在 技术 机 
会 。 
4.4 基于 多 维度 指标 模型 的 产品 重要 技术 属性 识别 
分 析 研 究 

本 研究 使 用 构建 的 产品 重要 技术 属性 特征 识别 指 
标 对 技术 属性 进行 评估 ,并 通过 确认 该 技术 属性 中 包 
含 新 兴 重 点 技术 评论 主题 ,识别 当前 重要 技术 属性 与 
潜在 重要 技术 属性 两 种 产品 重要 技术 属性 。 

参见 公式 (2) 计算 评论 与 产品 技术 属性 词 - 技 
术 特 征 词 表 之 间 的 相似 度 ,识别 技术 属性 相关 评论 ， 
设 定 评 论 与 技术 属性 相似 度 国 值 为 3% 。 通 过 使 用 
公式 (4) 计 算 技术 属性 强度 ,使 用 公式 (5 ) 计 算 属性 
新 颖 度 , 设 定 属性 强度 浆 值 为 0. 08 , Jš PERI AE BJ 
为 2019.7。 设 定 属 性 强度 属性 新 颖 度 高 于 靖 值 ,并 
且 与 新 兴 重 点 技术 评论 主题 相关 的 技术 属性 是 产品 
重要 技术 属性 中 的 当前 重要 技术 属性 ,应 该 引起 首 
要 重视 。 设 定 属 性 强度 低 于 阔 值 ,属性 新 颖 度 高 于 
阔 值 , 且 包 含 新 兴 重 点 技术 评论 主题 的 技术 属性 即 
为 产品 重要 技术 属性 中 的 潜在 重要 技术 属性 。 产 品 
重要 技术 属性 识别 结果 见 表 6、 表 7。 
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(10 ) :56 -67. 
"TECH 1 = 16 本 


TECH 2 
TECH 3 
TECH 4 
TECH 5 
TECH 6 
TECH 7 


TECH 8 


TECH 9 
TECH 10 
TECH 11 
TECH 12 


| topic © MI topic 3 I 


[ topic 4 IH topic 7 MI topic_5 M topic 7 MI topic 8 MI topic 9 V _ topic 0 V topic 2 V topic 3 V topic 6 V topic 8 


om fa 


图 2 新 兴 重 点 技术 评论 主题 相关 技术 属性 热力 


™ 
> 表 6 产品 当前 重要 技术 属性 4.5 产品 重要 技术 属性 多 维度 分 析 方 法 与 技术 机 会 
TER tE 技术 属性 技术 属性 强度 。 ”技术 属性 新 颖 度 发 现 研 究 
声音 0.082 012 107 4.5.1 产品 重要 技术 属性 下 主题 数量 时 期 分 布 规律 
ECH 6 摄像 功能 0.082 2019.711 分 析 研 究 
PECH_7 存储 0.081 2019.72 、 I g 
o ja a Bii 参见 公式 (2) 计算 主题 与 产品 技术 属性 词 - 技术 
二 s." a ke 寺 征 词 表 之 间 的 相似 度 。 由 于 主题 词 的 提取 结果 较为 
Chca 外 观 设计 0.082 2019.720 凝练 ° 制定 的 技术 属性 一 技术 村 征 词 表 较 为 精确 , 设 定 
q ee 主题 与 属性 相似 度 以 1% 作为 阔 值 ,相似 度 高 于 阔 值 
产品 ; s š SRS x n 
nu i 则 认为 是 属性 相关 主题 ,产品 重要 技术 属性 下 主题 数 
性 序号 UE 属性 强度 技术 属性 新 颖 度 Es: 3 Š = 
BANYS 技术 属性 技术 属性 强度 技术 属性 新 颖 度 量 的 时 期 分 布 情况 如 图 3 ER: 
HO ”处 理 器 /网 络 / 数 据 传输 技术 0.076 2019.759 
TEEH2 游戏 0.075 2019.74 
TECH 触 控 /NFC/ 智 能 蜗 控 技术 0.078 2019.763 
E == 
© 3.5 
3 
z5 
2 
1.5 
1 
s HHLHUL Í H HHIHII 1 
i TECH_1 TECH_6 TECH 7 TECH 8 TECH 10 TECH 12 TECHO TECH 2 TECH 3 
BRAT: 时 期 1 主题 数 2 1 0 0 0 q 2 0 3 
BRAT: 时 期 工 主 题 数 0 0 0 3 0 0 1 1 0 
BRAT: 时 期 Ht 主题 数 1 2 0 2 1 2 ii 0 0 
BORAT: 时 期 IV 主题 数 5; 1 0 > 1 1 0 0 0 
BRAT: 时 期 v 主题 数 1 2 1 1 0 q i P 2 


图 3 产品 重要 技术 属性 下 主题 数量 时 期 分 布 情况 


从 图 3 中 可 以 看 出 ,在 工时 期 ,评论 主题 主要 涉及 
TECH 3( 触 控 /NFC/ 智 能 遥控 技术 ) ,其 次 是 TECH 0 
(处 理 器 /网 络 / 数 据 传输 技术 ) TECH_1I( 声 音 ) 以 及 
TECH_12( 外 观 设 计 ) 。 在 下 时 期 ,评论 主题 主要 涉及 


TECH 8( 电 池 ) ,其 次 是 TECH_0( 处 理 器 /网 络 / 数 据 
传输 技术 ) 和 TECH_2 (游戏 ) 。 在 焉 时 期 ,评论 主题 主 
要 涉及 TECH 6( 摄 像 功能 ) 以 及 TECH 8( 电 池 ) 以 及 
TECH_12( 外 观 设计 ) ,其 次 是 TECH_0( 处 理 器 /网 络 / 
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数据 传输 技术 ) .TECH_1 (声音 ) 和 TECH_10( 附件 )。 
在 玉 时 期 ,评论 主题 主要 涉及 TECH_1( 处理 器/ 网 络 / 
数据 传输 技术 ) 以 及 TECH_8( 电 池 ) ,其 次 是 TECH_6 
(摄像 功能 ) TECH_10 (附件) 和 TECH_12( 外 观 设 
计 )。 在 V 时 期 ,评论 主题 主要 涉及 TECH_2( 游戏 )、 
TECH_3( 触 控 /NFC/ 智 能 遥控 技术 ) 以 及 TECH_6( 摄 
像 功 能 ) ,其 次 是 TECH_0( 人 处 理 右 /网络 / 数 据 传输 技 
Ñ) TECH_L( 声 音 ) TECH_7( 存 储 ) ,TECH_8( 电 池 ) 
和 TECH_12( 外 观 设 计 ) 。 

随 着 时 间 推 移 和 产品 的 完善 ,与 摄像 功能 技术 属 
性 相关 的 评论 主题 数量 相对 稳定 增长 。 随 着 各 类 手机 
游戏 的 推陈出新 ,用户 的 休闲 娱乐 需求 随 之 提高 ,游戏 
相关 技术 属性 下 的 主题 数量 增长 。 随 着 智能 遥控 E 
也 配件 等 产品 技术 的 推广 应 用 , 触 控 /NFC/ 各 
属性 下 的 评论 主题 数量 在 近期 上 升 。 


Al YS? 
智能 遥控 


A2 产品 重要 技术 属性 下 的 主题 内 容 时 期 演化 规 
律 分 析 研 究 


以 当前 重要 技术 属性 TECH_10( 附件 ) 为 例 ,参见 
公示 (2) 计算 该 属性 下 不 同 主题 内 容 之 间 的 相似 度 。 
主题 词 的 提取 结果 较为 凝练 ,为 了 更 为 精确 地 分 
G A 主题 之 间 相似 度 以 
7 所作 为 闵 值 ,相似 度 大 于 该 阔 值 则 互 为 相似 主题 。 采 
-DyData 可 视 化 平台 以 桑 基 图 的 形式 呈现 该 技术 属 
性 下 相 邻 时 期 相似 主题 演化 关系 ,分 析 该 技术 属性 下 
E an 演化 规律 ,如 图 4 所 示 ; 


IV_topic_2 | 


V_topic_6 


V topic 5 
lV_topic 5 


b. F 


V topic 4 l 


图 4 产品 重要 技术 属性 下 主题 内 容 时 期 演化 图 
(以 TECH _10 为 例 ) 


从 图 4 可 以 看 出 ,TECH_10( 配 件 ) 下 的 主题 在 研 
究 发 展 过 程 中 不 断交 叉 、 分 化 与 融合 。 亚 _topic_7 涉及 
的 华为 手机 配件 如 手机 膜 、 保 护 壳 以 及 物流 配送 技术 
服务 ,演化 为 V_itopic_2 涉及 的 小 米 手机 物流 配送 技术 


服务 JV_topic_5 的 配件 效果 及 特色 以 及 V_topic_8 ZP 
及 的 苹果 手机 膜 . 保 护 壳 以 及 拍照 ,充电 相关 配件 的 效 
果 与 功能 。IV __topic_8 分 别 与 其 他 主题 融合 演化 为 V_ 
topic_4 对 苹果 手机 以 及 华为 手机 等 配件 的 相关 反馈 、 
V _topic_5 对 苹果 手机 配件 的 反馈 、V _topic_6 对 手机 
充电 、 拍 照 等 配件 的 反馈 。 
4.5.3 产品 重要 技术 属性 下 的 评论 数量 时 期 分 布 规 
律 分 析 研 究 

参见 公式 (2) 计算 评论 与 产品 技术 属性 词 - 技 
术 特 征 词 表 之 间 的 相似 度 。 由 于 预 处 理 过 后 的 评论 
信息 较为 凝练 ,制定 的 技术 属性 - 技术 特征 词 表 较 
为 精确 ,因此 设 定 评论 与 属性 相似 度 以 3% VE Yy 
值 , 相 似 度 高 于 阔 值 则 认为 是 技术 属性 相关 评论 , 产 
品 重要 技术 属性 下 的 评论 数量 时 期 分 布 情况 如 图 5 
所 示 : 


5 
10 
5 | 
I I IV v | 
— TECH 8 8 8 32 48 | 
一 TECH 6 8 9 8 32 48 | 
一 TECH 7 8 7 8 32 48 | 
—TECH 8 8 8 8 32 48 | 
一 TECH 10 8 8 8 32 48 | 
— TECH 12 8 8 8 32 48 | 
一 TECH 0 7 8 29 46 | 
一 TECH 2 8 8 8 24 48 | 
—TECH_3 6 6 8 


33 46 | 
5 产品 重要 技术 属性 下 评论 时 期 分 布 情况 


从 图 5 中 可 以 看 出 ,声音 ,摄像 功能 ,存储 、 电 池 等 
产品 重要 技术 属性 下 的 评论 数量 在 第 下 到 第 V 时 期 呈 
现 快速 增长 趋势 ,这 些 技术 属性 下 包含 了 具有 未 来 发 
展 潜力 的 技术 机 会 。 

4.5.4 产品 重要 技术 属性 下 产品 型 号 的 评论 时 期 分 
布 规律 分 析 研究 

产品 重要 技术 属性 下 产品 型 号 的 评论 时 期 分 布 规 

律 ,如 图 6 所 示 : 
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等 . 融合 评论 主题 识别 与 技术 属性 多 维度 度 分 析 的 技术 机 会 发 现 研究 [J 四 3 IA 
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TECH_3 


6 产品 重要 技术 属性 下 产品 型 号 的 评论 时 期 分 布 情况 


研究 者 可 以 根据 产品 重要 技术 属性 下 产品 型 号 的 
评论 时 期 分 布 规律 ,结合 网 络 调研 学 术 论 文 .科技 报 
告 . 专 家 知识 等 多 元 化 信息 渠道 ,对 特定 型 号 产品 的 相 
关 属 性 进行 针对 性 调研 分 析 。 例 如 在 第 V 时 期 ,用 户 


对 于 华为 9X 的 TECH_10( 附件 ) 技 术 属 性 下 评论 数量 
较为 突出 。 经 过 针对 性 分 析 发 现 ,评论 反馈 主要 集中 
于 手机 附件 的 充电 插头 ,插头 功率 较 低 , 且 不 支持 快 
充 ,导致 充电 时 长 较 长 ,影响 了 使 用 感 ” 。 研 发 人 员 
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可 以 根据 技术 需求 反馈 发 现 技 术 机 会 
对 性 改进 ,满足 用 户 的 技术 需求 。 


5 总 结 


,对 产品 进行 针 


本 研究 充分 利用 产品 在 线 评论 数据 ,提出 一 种 融 
合 评论 主题 识别 与 技术 属性 多 维度 分 析 的 前 有 瞻 技术 机 
会 发 现 研究 方法 。 实 验 结果 表明 ,首先 ,从 智能 手机 产 
品评 论 中 发 现 的 技术 机 会 主要 隐 含 在 声音 .摄像 功能 、 
存储 .电池 .附件 .外观 设 计 等 产品 重要 技术 属性 中 ,对 
不 同 品牌 型 号 的 产品 ,技术 机 会 有 所 不 同 。 其 次 ,用 户 
的 技术 评论 主题 内 容 存 在 相互 交叉 .渗透 与 融合 的 趋 
势 , 需 要 研发 人 员 提 高 技术 研发 洞察 力 ,取长补短 。 最 
后 ,尊重 并 满足 评论 主题 中 涉及 的 对 老人 等 用 户 群体 
的 产品 技术 需求 是 一 项 重要 的 技术 机 会 ,技术 研发 人 
员 镶 要 在 产品 设计 与 技术 研发 环节 体现 更 多 人 文 关 
让 断 完善 产品 的 科技 含 量 ,提高 使 用 感 。 

轧 一 方面 ,本 研究 能 够 从 技术 需求 驱动 的 视角 让 富 
技术 机 会 发 现 的 研究 方法 与 机 理 机 制 ,发 现 隐 售 在 产 
s A ,并 提升 技 术 机 全 发现 识 
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Research on Technology Opportunity Discovery Based on Comment Topic Identification 
and Multi Dimension Analysis of Technical Attributes 
Wu Yiping Bai Ruiang Liu Mingyue Wang Xiaoyue 
Institute of Information Management, Shandong University of Technology, Zibo 255049 

Abstract; | Purpose/ significance | This paper proposed a technology opportunity discovery method which inte- 

grated comment topic identification and multi-dimensional analysis of technology attributes , identified technology op- 

portunities from the perspective of technology demand driven, and provided decision-making support for enterprises’ 

forward-looking layout of R & D direction and scientific research management planning. | Method/process | Product 

online comments were used as the research data source. Firstly, LDA topic model was used to identify the technical 

topics of comments, and two indicators of technical comment topic strength and topic novelty were proposed to screen 

out the emerging key technical comment topics. Then, technical attribute words were manually selected from academ- 

ic papers and technical patents, and high-frequency comment words were obtained through TF-IDF value calculation. 

&ombined with expert knowledge , technical feature words were further selected, and product technical attribute words 

Biol feature words list was constructed. Through the correlation calculation, the technical attributes related to 

=the comments and the topics of the emerging key technology comments were obtained respectively. Finally, this paper 

posed an index model to identify important technical attributes of products, and desiened a multi-dimensional a- 

Calysis method to analyze the characteristics of important technical attributes of products, and finally identified the e- 

emerging technology opportunities contained in the comment text. | Result/conclusion | The experimental results show 

GGhàt this method can effectively identify technology opportunities prospectively, and provide reference for enterprise 
CPapduct technology R & D management. 

© Keywords; technology opportunities discovery technical attributes analysis subject recognition comments 
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